2 research outputs found

    Catégorisation automatique de textes et cooccurrence de mots provenant de documents non étiquetés

    Get PDF
    Ayant pour objectif de rendre un programme informatique capable d’assigner de façon autonome des documents textuels Ă  leur classe d’appartenance, la catĂ©gorisation automatique de textes est rendue possible grĂące Ă  l’apprentissage supervisĂ©. Un entraĂźnement du programme est effectuĂ© sur un ensemble de documents auxquels des Ă©tiquettes de catĂ©gorie ont dĂ©jĂ  Ă©tĂ© assignĂ©es par des humains. Or, la constitution de cet ensemble d’entraĂźnement se rĂ©vĂšle un processus long et coĂ»teux. Ce mĂ©moire propose une façon d’amĂ©liorer la capacitĂ© d’un classificateur Ă  bien accomplir sa tĂąche dans des situations oĂč un entraĂźnement sur un nombre suffisant de textes n’aura pas Ă©tĂ© possible. L’approche suggĂ©rĂ©e consiste Ă  Ă©tudier une forme d’association, la cooccurrence, entre les mots provenant d’un ensemble de textes libellĂ©s et ceux provenant d’un ensemble de textes non libellĂ©s, plus volumineux. On espĂšre ainsi augmenter Ă  faible coĂ»t le vocabulaire utile Ă  la classification de textes, en minimisant le nombre de documents Ă  Ă©tiqueter.Automated text categorization consists of developing computer programs able to autonomously assign texts to predefined categories, on the basis of their content. Such applications are possible thanks to supervised learning, which implies a training phase on manually labeled documents. However, the construction of a training set is long and expensive. This study suggests a way to assist text classifiers in the gathering of the vocabulary when the size of the training set is limited. So, it is proposed to analyze word cooccurrence inside a text collection of many non-labeled documents, to augment the vocabulary produced by the analysis of the labeled texts. The representation of new documents to classify can then be modified in order to better match the vocabulary used by the classifier. What is expected, of course, is an improvement of its ability to categorize texts
    corecore